当前位置: 开发笔记 > 编程语言 > 正文

重磅|大幅_GitHubStar20000+，程序员圈里都炸锅了！

作者：洛丽塔珊珊_668 | 来源：互联网 | 2023-07-16 12:15

篇首语：本文由编程笔记#小编为大家整理，主要介绍了GitHubStar20000+，程序员圈里都炸锅了！相关的知识，希望对你有一定的参考价值。导读

篇首语：本文由编程笔记#小编为大家整理，主要介绍了GitHub Star 20000+，程序员圈里都炸锅了！相关的知识，希望对你有一定的参考价值。

导读

OCR方向的工程师&＃xff0c;之前一定听说过PaddleOCR这个项目&＃xff0c;

累计Star数量已超过20000&＃43;&＃xff0c;

频频登上GitHub Trending和Paperswithcode 日榜月榜第一&＃xff0c;

在Medium与Papers with Code 联合评选的《Top Trending Libraries of 2021》&＃xff0c;从百万量级项目中脱颖而出&＃xff0c;荣登Top10&＃xff01;

在《2021中国开源年度报告》中被评为活跃度Top5&＃xff01;

称它为 OCR方向目前最火的repo绝对不为过。

PaddleOCR动图.gif

PaddleOCR影响力

PP-OCRv3效果

本次PaddleOCR最新发版&＃xff0c;带来四大重磅升级&＃xff0c;包括&＃xff1a;

一、发布超轻量OCR系统PP-OCRv3&＃xff1a;中英文、纯英文以及多语言场景精度再提升5% - 11%&＃xff01;

二、发布半自动标注工具PPOCRLabelv2&＃xff1a;新增表格文字图像、图像关键信息抽取任务和不规则文字图像的标注功能。

三、发布OCR产业落地工具集&＃xff1a;打通22种训练部署软硬件环境与方式&＃xff0c;覆盖企业90%的训练部署环境需求。

四、发布业界首个交互式OCR开源电子书《动手学OCR》&＃xff0c;覆盖OCR全栈技术的前沿理论与代码实践&＃xff0c;并配套教学视频。

传送门&＃xff1a;https://github.com/PaddlePaddle/PaddleOCR

下面我们就对上述升级依次进行说明&＃xff1a;

PP-OCRv3优化策略详细解读

PP-OCR是PaddleOCR团队自研的超轻量OCR系统&＃xff0c;面向OCR产业应用&＃xff0c;权衡精度与速度。近期&＃xff0c;PaddleOCR团队针对PP-OCRv2的检测模块和识别模块&＃xff0c;进行共计9个方面的升级&＃xff0c;打造出一款全新的、效果更优的超轻量OCR系统&＃xff1a;PP-OCRv3。

从效果上看&＃xff0c;速度可比情况下&＃xff0c;多种场景精度均有大幅提升&＃xff1a;

1.中文场景&＃xff0c;相比于PP-OCRv2中文模型提升超5%&＃xff1b;

2.英文数字场景&＃xff0c;相比于PP-OCRv2英文数字模型提升11%&＃xff1b;

3.多语言场景&＃xff0c;优化80&＃43;语种识别效果&＃xff0c;平均准确率提升超5%。

全新升级的PP-OCRv3的整体框架图&＃xff08;粉色框中为PP-OCRv3新增策略&＃xff09;如下图。检测模块仍基于DB算法优化&＃xff0c;而识别模块不再采用CRNN&＃xff0c;更新为IJCAI 2022最新收录的文本识别算法SVTR (论文名称&＃xff1a;SVTR: Scene Text Recognition with a Single Visual Model)&＃xff0c;并对其进行产业适配。

具体的优化策略包括&＃xff1a;

1.检测模块

●LK-PAN&＃xff1a;大感受野的PAN结构

●DML&＃xff1a;教师模型互学习策略

●RSE-FPN&＃xff1a;残差注意力机制的FPN结构

2.识别模块

●SVTR_LCNet&＃xff1a;轻量级文本识别网络

●GTC&＃xff1a;Attention指导CTC训练策略

●TextConAug&＃xff1a;挖掘文字上下文信息的数据增广策略

●TextRotNet&＃xff1a;自监督的预训练模型

●UDML&＃xff1a;联合互学习策略

●UIM&＃xff1a;无标注数据挖掘方案

优化策略解读详见第六节。

PPOCRLabelv2多项重磅更新

PPOCRLabel是首款开源的OCR半自动数据标注工具&＃xff0c;大幅减少开发者标注OCR数据的时间。2021年&＃xff0c;项目获得Wave Summit 2021优秀开源项目奖、启智社区优秀项目奖。经过一年的更新迭代&＃xff0c;PPOCRLabel结合产业实际落地需求&＃xff0c;正式发布PPOCRLabelv2&＃xff0c;更新内容如下&＃xff1a;

●新增标注类型&＃xff1a;表格标注、关键信息标注、不规则文字图像的标注&＃xff08;印章、弯曲文本等&＃xff09;

●新增功能&＃xff1a;锁定框、图像旋转、数据集划分、批量处理等

●易用性提升&＃xff1a;新增whl包安装、以及优化多处标注体验

表格标注动图、KIE标注动图&＃xff08;横向拉动&＃xff09;

OCR产业落地工具集

考虑到真实产业应用面对的各种软硬件环境和不同的场景需求&＃xff0c;基于飞桨训推一体的功能完备&＃xff0c;本次升级发布OCR产业落地工具集&＃xff0c;打通22种训练部署软硬件环境与方式&＃xff0c;包括3种训练方式、6种训练环境、3种模型压缩策略、和10种推理部署方式&＃xff0c;如下表所示&＃xff1a;

微信图片_20220509102357.png

其中特色能力如下&＃xff1a;

1.分布式训练&＃xff1a;飞桨分布式训练架构具备4D混合并行、端到端自适应分布式训练等多项特色技术。在PP-OCRv3识别模型训练中&＃xff0c;4机加速比达到3.52倍&＃xff0c;精度几乎无损。

2.模型压缩&＃xff1a;飞桨模型压缩工具PaddleSlim功能完备&＃xff0c;覆盖模型裁剪、量化、蒸馏和NAS。PP-OCR模型经过裁剪量化后&＃xff0c;模型大小从8.1M压缩至3.5M&＃xff0c;移动端平均预测耗时减少36%。

3.服务化部署&＃xff1a;飞桨服务化部署引擎Paddle Serving&＃xff0c;提供性能优越、功能可靠的模型即服务能力。针对PP-OCR模型的服务化部署&＃xff0c;采用全异步的Pipeline Serving&＃xff0c;可将吞吐量提升2倍以上。

4.移动端/边缘端部署&＃xff1a;飞桨轻量化推理引擎Paddle Lite适配了20&＃43; AI 加速芯片&＃xff0c;可以快速实现OCR模型在移动设备、嵌入式设备和IOT设备等高效设备的部署。

5.云上飞桨&＃xff1a;面向飞桨框架及其模型套件的部署工具箱&＃xff0c;支持 Docker 化部署和 Kubernetes 集群部署两种方式&＃xff0c;满足不同场景与环境下OCR模型的训练部署需求。

《动手学OCR》电子书

《动手学OCR》是PaddleOCR团队携手华中科技大学博导/教授&＃xff0c;IAPR Fellow 白翔、复旦大学青年研究员陈智能、中国移动研究院视觉领域资深专家黄文辉等产学研同仁&＃xff0c;以及OCR开发者共同打造的结合OCR前沿理论与代码实践的教材。主要特色如下&＃xff1a;

●覆盖从文本检测识别到文档分析的OCR全栈技术

●紧密结合理论实践&＃xff0c;跨越代码实现鸿沟&＃xff0c;并配套教学视频

●Notebook交互式学习&＃xff0c;灵活修改代码&＃xff0c;即刻获得结果

&＃xff08;可竖向拉动多图&＃xff09;

加入PaddleOCR技术交流群

获取精品直播课/学习大礼包等福利&＃xff01;

入群福利&＃xff1a;

1. 获取5月11-13日每晚20:30《OCR超强技术详解与产业应用实战》的直播课链接

2. 获取10G重磅OCR学习大礼包&＃xff0c;包括&＃xff1a;

●《动手学OCR》电子书&＃xff0c;配套讲解视频和notebook项目

●66篇OCR相关顶会前沿论文打包放送&＃xff0c;包括CVPR、AAAI、IJCAI、ICCV等

●PaddleOCR历次发版直播课视频

●OCR社区优秀开发者项目分享视频

报名方式&＃xff1a;微信扫描二维码并填写问卷之后&＃xff0c;加入交流群领取以上福利。

大家如果觉得不错&＃xff0c;建议访问GitHub点个star关注收藏哈。

https://github.com/PaddlePaddle/PaddleOCR

官网地址&＃xff1a;https://www.paddlepaddle.org.cn

PaddleOCR项目地址&＃xff1a;

GitHub: https://github.com/PaddlePaddle/PaddleOCR

Gitee: https://gitee.com/paddlepaddle/PaddleOCR

注&＃xff1a;[1] 测试样例图片源于网络

PP-OCRv3优化策略详解

1.检测模块优化策略

PP-OCRv3检测模块对PP-OCRv2中的CML&＃xff08;Collaborative Mutual Learning) 协同互学习文本检测蒸馏策略进行了升级。如下图所示&＃xff0c;CML的核心思想结合了①传统的Teacher指导Student的标准蒸馏与 ②Students网络之间的DML互学习&＃xff0c;可以让Students网络互学习的同时&＃xff0c;Teacher网络予以指导。PP-OCRv3分别针对教师模型和学生模型进行进一步效果优化。其中&＃xff0c;在对教师模型优化时&＃xff0c;提出了大感受野的PAN结构LK-PAN和引入了DML&＃xff08;Deep Mutual Learning&＃xff09;蒸馏策略&＃xff1b;在对学生模型优化时&＃xff0c;提出了残差注意力机制的FPN结构RSE-FPN。消融实验如下表所示。

测试环境&＃xff1a;Intel Gold 6148 CPU&＃xff0c;预测时开启MKLDNN加速。

LK-PAN&＃xff1a;大感受野的PAN结构

LK-PAN (Large Kernel PAN) 是一个具有更大感受野的轻量级PAN结构&＃xff0c;核心是将PAN结构的path augmentation中卷积核从3*3改为9*9。通过增大卷积核&＃xff0c;提升特征图每个位置覆盖的感受野&＃xff0c;更容易检测大字体的文字以及极端长宽比的文字。使用LK-PAN结构&＃xff0c;可以将教师模型的hmean从83.2%提升到85.0%。

DML&＃xff1a;教师模型互学习策略

DML 互学习蒸馏方法&＃xff0c;通过两个结构相同的模型互相学习&＃xff0c;可以有效提升文本检测模型的精度。教师模型采用DML策略&＃xff0c; hmean从85%提升到86%。将PP-OCRv2中CML的教师模型更新为上述更高精度的教师模型&＃xff0c;学生模型的hmean可以进一步从83.2%提升到84.3%。

RSE-FPN&＃xff1a;残差注意力机制的FPN结构

RSE-FPN&＃xff08;Residual Squeeze-and-Excitation FPN&＃xff09;引入残差结构和通道注意力结构&＃xff0c;将FPN中的卷积层更换为带有残差结构的通道注意力结构的RSEConv层&＃xff0c;进一步提升特征图的表征能力。进一步将PP-OCRv2中CML的学生模型的FPN结构更新为RSE-FPN&＃xff0c;学生模型的hmean可以进一步从84.3%提升到85.4%。

2.识别模块优化策略

PP-OCRv3的识别模块是基于文本识别算法SVTR优化。SVTR不再采用RNN结构&＃xff0c;通过引入Transformers结构更加有效地挖掘文本行图像的上下文信息&＃xff0c;从而提升文本识别能力。直接将PP-OCRv2的识别模型&＃xff0c;替换成SVTR_Tiny&＃xff0c;识别准确率从74.8%提升到80.1%&＃xff08;&＃43;5.3%&＃xff09;&＃xff0c;但是预测速度慢了将近11倍&＃xff0c;CPU上预测一条文本行&＃xff0c;将近100ms。因此&＃xff0c;如下图所示&＃xff0c;PP-OCRv3采用如下6个优化策略进行识别模型加速&＃xff0c;消融实验如下表所示。

注&＃xff1a;测试速度时&＃xff0c;实验01-03输入图片尺寸均为(3,32,320)&＃xff0c;04-08输入图片尺寸均为(3,48,320)。在实际预测时&＃xff0c;图像为变长输入&＃xff0c;速度会有所变化。测试环境&＃xff1a;Intel Gold 6148 CPU&＃xff0c;预测时开启MKLDNN加速。

SVTR_LCNet&＃xff1a;轻量级文本识别网络

SVTR_LCNet是针对文本识别任务&＃xff0c;将Transformer网络和轻量级CNN网络PP-LCNet 融合的一种轻量级文本识别网络。使用该网络&＃xff0c;并且将输入图片规范化高度从32提升到48&＃xff0c;预测速度可比情况下&＃xff0c;识别准确率达到73.98%&＃xff0c;接近PP-OCRv2采用蒸馏策略的识别模型效果。

GTC&＃xff1a;Attention指导CTC训练策略

GTC&＃xff08;Guided Training of CTC&＃xff09;&＃xff0c;利用Attention指导CTC训练&＃xff0c;融合多种文本特征的表达&＃xff0c;是一种有效的提升文本识别的策略。使用该策略&＃xff0c;识别模型的准确率进一步提升到75.8%&＃xff08;&＃43;1.82%&＃xff09;。

TextConAug&＃xff1a;挖掘文字上下文信息的数据增广策略

TextConAug是一种挖掘文字上下文信息的数据增广策略&＃xff0c;可以丰富训练数据上下文信息&＃xff0c;提升训练数据多样性。使用该策略&＃xff0c;识别模型的准确率进一步提升到76.3%&＃xff08;&＃43;0.5%&＃xff09;。

TextRotNet&＃xff1a;自监督的预训练模型

TextRotNet是使用大量无标注的文本行数据&＃xff0c;通过自监督方式训练的预训练模型。该模型可以初始化SVTR_LCNet的初始权重&＃xff0c;从而帮助文本识别模型收敛到更佳位置。使用该策略&＃xff0c;识别模型的准确率进一步提升到76.9%&＃xff08;&＃43;0.6%&＃xff09;。

联合互学习策略

UDML&＃xff08;Unified-Deep Mutual Learning&＃xff09;联合互学习是PP-OCRv2中就采用的对于文本识别非常有效的提升模型效果的策略。在PP-OCRv3中&＃xff0c;针对两个不同的SVTR_LCNet和Attention结构&＃xff0c;对他们之间的PP-LCNet的特征图、SVTR模块的输出和Attention模块的输出同时进行监督训练。使用该策略&＃xff0c;识别模型的准确率进一步提升到78.4%&＃xff08;&＃43;1.5%&＃xff09;。

无标注数据挖掘方案

UIM&＃xff08;Unlabeled Images Mining&＃xff09;是一种非常简单的无标注数据挖掘方案。核心思想是利用高精度的文本识别大模型对无标注数据进行预测&＃xff0c;获取伪标签&＃xff0c;并且选择预测置信度高的样本作为训练数据&＃xff0c;用于训练小模型。使用该策略&＃xff0c;识别模型的准确率进一步提升到79.4%&＃xff08;&＃43;1%&＃xff09;。

经过上述文本检测和文本识别9个方面的优化&＃xff0c;最终PP-OCRv3在速度可比情况下&＃xff0c;在中文场景端到端Hmean指标相比于PP-OCRv2提升5%&＃xff0c;效果大幅提升。具体指标如下表所示&＃xff1a;

在英文数字场景&＃xff0c;基于PP-OCRv3单独训练的英文数字模型&＃xff0c;相比于PP-OCRv2的英文数字模型提升11%&＃xff0c;如下表所示。

在多语言场景&＃xff0c;基于PP-OCRv3训练的模型&＃xff0c;在有评估集的四种语系&＃xff0c;相比于PP-OCRv2&＃xff0c;识别准确率平均提升5%以上&＃xff0c;如下表所示。同时&＃xff0c;PaddleOCR团队基于PP-OCRv3更新了已支持的80余种语言识别模型。

想了解更多技术详细解读&＃xff0c;欢迎扫码加入技术交流群。

大家如果觉得不错&＃xff0c;建议访问GitHub点个star关注收藏哈。

https://github.com/PaddlePaddle/PaddleOCR

推荐阅读

io
Android中高级面试必知必会，积累总结

本文介绍了Android中高级面试的必知必会内容，并总结了相关经验。文章指出，如今的Android市场对开发人员的要求更高，需要更专业的人才。同时，文章还给出了针对Android岗位的职责和要求，并提供了简历突出的建议。 ... [详细]

蜡笔小新 2023-12-14 14:53:02
blob
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
blob
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
plugins
像跟踪分布式服务调用那样跟踪Go函数调用链 | Gopher Daily (2020.12.07) ʕ◔ϖ◔ʔ

每日一谚：“Acacheisjustamemoryleakyouhaven’tmetyet.”—Mr.RogersGo技术专栏“改善Go语⾔编程质量的50个有效实践” ... [详细]

蜡笔小新 2023-10-17 19:23:45
plugins
python人物抠图算法_比PS还好用！Python 20行代码批量抠图

抠图前vsPython自动抠图后在日常的工作和生活中，我们经常会遇到需要抠图的场景，即便是只有一张图片需要抠，也会抠得我们不耐烦ÿ ... [详细]

蜡笔小新 2023-10-12 18:22:39
range
世界人工智能大赛OCR赛题方案！

Datawhale干货作者：阿水，北京航空航天大学，Datawhale成员本文以世界人工智能创新大赛（AIWIN）手写体OCR识别竞赛为实践背景，给出了OCR实践的常见思路和流 ... [详细]

蜡笔小新 2023-10-11 18:31:00
range
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
object
JavaScript疑难杂症系列相称性推断的知识点详解

本文详细解析了JavaScript中相称性推断的知识点，包括严厉相称和宽松相称的区别，以及范例转换的规则。针对不同类型的范例值，如差别范例值、统一类的原始范例值和统一类的复合范例值，都给出了具体的比较方法。对于宽松相称的情况，也解释了原始范例值和对象之间的比较规则。通过本文的学习，读者可以更好地理解JavaScript中相称性推断的概念和应用。 ... [详细]

蜡笔小新 2023-12-14 19:12:10
object
生成对抗式网络GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍

一、GAN原理介绍学习GAN的第一篇论文当然由是IanGoodfellow于2014年发表的GenerativeAdversarialNetworks（论文下载链接arxiv：[h ... [详细]

蜡笔小新 2023-12-14 11:39:45
string
Go GUIlxn/walk 学习3.菜单栏和工具栏的具体实现

本文介绍了使用Go语言的GUI库lxn/walk实现菜单栏和工具栏的具体方法，包括消息窗口的产生、文件放置动作响应和提示框的应用。部分代码来自上一篇博客和lxn/walk官方示例。文章提供了学习GUI开发的实际案例和代码示例。 ... [详细]

蜡笔小新 2023-12-12 20:56:55
string
SpringBoot整合SpringSecurity+JWT实现单点登录

SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-12-11 08:21:41
string
华为200万年薪招聘AI应届生——有多少本事，给多少钱

据新浪科技报道，阿里AIlabs年薪百万美元引进两位科学家。除AI顶尖科学家外，华为也是为多位AI应届博士开出了200万的高价年薪。19年9月，各大互联招聘企业陆续发布2019年人 ... [详细]

蜡笔小新 2023-10-11 14:19:53
string
以赛促学，飞桨助力大学生智能车竞赛升级！

点击左上方蓝字关注我们第十六届智能汽车竞赛-百度人工智能创意赛道已经开启！比赛虽好，但同学们苦核心开发硬件久矣！百度飞桨作为大赛的赞助商之 ... [详细]

蜡笔小新 2023-10-11 13:22:52
string
学习提醒 | 如何训练RNN？解决梯度消失与梯度爆炸问题！

点击左上方蓝字关注我们今天就要进入RNN的终章，每日一问：它们如何运行？应用在哪里？你学完了吗？????顾名思 ... [详细]

蜡笔小新 2023-10-10 00:11:56
string
PaddleX全流程开发工具公开邀测啦！

产业智能化升级的浪潮并没有因为疫情等原因停滞不前，作为带来人工智能应用井喷式发展的深度学习技术在近几年也可谓是“时代宠儿”，想要尝试应用深度学习技术解决 ... [详细]

蜡笔小新 2023-10-09 23:10:46

洛丽塔珊珊_668

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章